Large language models can perform new tasks in a zero-shot fashion, given natural language prompts that specify the desired behavior. Such prompts are typically hand engineered, but can also be learned with gradient-based methods from labeled data. However, it is underexplored what factors make the prompts effective, especially when the prompts are natural language. In this paper, we investigate common attributes shared by effective prompts. We first propose a human readable prompt tuning method (F LUENT P ROMPT) based on Langevin dynamics that incorporates a fluency constraint to find a diverse distribution of effective and fluent prompts. Our analysis reveals that effective prompts are topically related to the task domain and calibrate the prior probability of label words. Based on these findings, we also propose a method for generating prompts using only unlabeled data, outperforming strong baselines by an average of 7.0% accuracy across three tasks.
translated by 谷歌翻译
我们介绍了NLP社区Metasurvey的结果。从2022年5月到2022年6月,该调查引起了关于有争议的问题的意见,包括该领域的行业影响,对AGI和道德规范的关注。我们的结果将具体数字置于几个争议中:例如,受访者几乎完全将有关人工通用智能的重要性的问题分为一半,语言模型是否理解语言以及语言结构的必要性以及解决NLP问题的必要性。此外,调查提出了元问题,要求受访者预测调查响应的分布。这不仅使我们不仅可以深入了解NLP研究人员所拥有的各种信念,还可以揭示社区预测与现实不符的错误社会学信念。我们在各种问题上发现这种不匹配。除其他结果外,社区大大高估了其对基准的实用性的信念,以及扩展解决现实世界中问题的潜力,同时低估了其对语言结构,归纳偏见和跨学科科学重要性的信念。
translated by 谷歌翻译
大型语言模型在零拍设置中显示出令人鼓舞的结果(Brown等,2020; Radford等,2019)。例如,他们只需在问题上调节并以最高概率选择答案来执行多项选择任务。但是,由于表面竞争的表面形式 - 在不同的表面形式竞争概率质量,即使它们代表相同的基本概念,例如“计算机”和“ PC”。由于概率质量是有限的,因此由于其他是有效答案的字符串的竞争(但不是多项选择选项之一),这会降低正确答案的概率。我们引入域有条件地互相信息,这是一种替代评分函数,可以通过简单地根据特定的零击任务的上下文中的先验可能性重新重新拨出每个选项来直接补偿表面竞争。在校准(Zhao等,2021)和所有GPT-2和GPT-3模型上,在各种多项选择数据集上,它都可以在零击性能方面的一致增长和未校准的评分功能。
translated by 谷歌翻译
公开可用的大型预磨语删除媒介(LMS)生成具有显着质量的文本,但仅从左右依次顺序地。因此,它们不会立即适用于打破单向假设的生成任务,例如释放或文本缺陷,需要特定于特定的监督。在本文中,我们呈现反射解码,这是一种新型无监督算法,其允许直接向非顺序任务应用单向LMS。我们的2步方法不需要监督甚至并行对象,只有两个离心的预磨损LMS相反的方向:向前和向后。首先,在上下文化步骤中,我们使用LMS生成过去和未来环境的集合,该上下文共同捕获输入(例如,索引源句)。其次,在反射步骤中,我们在这些“上下文集合”中的条件,生成与它们兼容的输出。综合经验结果表明,反思解码优于涉及释义和绑架文本缺陷的强烈无监督的基线,显着缩小无监督和监督方法之间的差距。反射解码超越了各种度量的多个监督基线,包括人为评估。
translated by 谷歌翻译
Despite considerable advances in neural language modeling, it remains an open question what the best decoding strategy is for text generation from a language model (e.g. to generate a story). The counter-intuitive empirical observation is that even though the use of likelihood as training objective leads to high quality models for a broad range of language understanding tasks, maximization-based decoding methods such as beam search lead to degeneration -output text that is bland, incoherent, or gets stuck in repetitive loops.To address this we propose Nucleus Sampling, a simple but effective method to draw considerably higher quality text out of neural language models than previous decoding strategies. Our approach avoids text degeneration by truncating the unreliable tail of the probability distribution, sampling from the dynamic nucleus of tokens containing the vast majority of the probability mass. To properly examine current maximization-based and stochastic decoding methods, we compare generations from each of these methods to the distribution of human text along several axes such as likelihood, diversity, and repetition. Our results show that (1) maximization is an inappropriate decoding objective for openended text generation, (2) the probability distributions of the best current language models have an unreliable tail which needs to be truncated during generation and (3) Nucleus Sampling is currently the best available decoding strategy for generating long-form text that is both high-quality -as measured by human evaluation -and as diverse as human-written text.Context: In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.
translated by 谷歌翻译
A Differentiable Neural Computer (DNC) is a neural network with an external memory which allows for iterative content modification via read, write and delete operations. We show that information theoretic properties of the memory contents play an important role in the performance of such architectures. We introduce a novel concept of memory demon to DNC architectures which modifies the memory contents implicitly via additive input encoding. The goal of the memory demon is to maximize the expected sum of mutual information of the consecutive external memory contents.
translated by 谷歌翻译
金属伪影校正是锥形束计算机断层扫描(CBCT)扫描中的一个具有挑战性的问题。插入解剖结构的金属植入物在重建图像中导致严重的伪影。广泛使用的基于介入的金属伪像减少(MAR)方法需要对投影中的金属痕迹进行分割,这是一项艰巨的任务。一种方法是使用深度学习方法来细分投影中的金属。但是,深度学习方法的成功受到现实培训数据的可用性的限制。由于植入物边界和大量预测,获得可靠的地面真相注释是充满挑战和耗时的。我们建议使用X射线模拟从临床CBCT扫描中生成合成金属分割训练数据集。我们比较具有不同数量的光子的仿真效果,还比较了几种培训策略以增加可用数据。我们将模型在真实临床扫描中的性能与常规阈值MAR和最近的深度学习方法进行比较。我们表明,具有相对较少光子的模拟适用于金属分割任务,并且用全尺寸和裁剪的投影训练深度学习模型共同提高了模型的鲁棒性。我们显示出受严重运动,体素尺寸下采样和落水量金属影响的图像质量的显着改善。我们的方法可以轻松地在现有的基于投影的MAR管道中实现,以提高图像质量。该方法可以为准确分割CBCT投影中的金属提供新的范式。
translated by 谷歌翻译
捕获和归因于代码变更引起的生产中的性能回归很难;事先预测它们,甚至更努力。关于自动学习预测软件中性能回归的入门,本文介绍了我们在Meta研究和部署基于ML的回归预测管道时获得的经验。在本文中,我们报告了一项比较研究,其复杂性增加了四个ML模型,从(1)代码 - opaque,(2)单词袋,(3)基于转换的变压器到(4)基于定制变压器的模型,创造的超大通信器。我们的调查表明,性能预测问题的固有难度,其特征是良性对回归变化的不平衡。我们的结果还质疑了基于变压器的架构在性能预测中的一般适用性:基于基础的代码伯特方法的性能令人惊讶。我们高度定制的超大号架构最初实现了预测性能,这与简单的单词模型相当,并且仅在下游用例中优于它们。超级人员将其转移到应用程序的这种能力很少有学习示例提供了在Meta实践中部署它的机会:它可以作为预滤波器来解决不太可能引入回归的更改,从而缩小更改空间的变化空间搜索回归高达43%,比随机基线提高45倍。为了进一步洞悉超大号公园,我们通过一系列计算反事实解释进行了探索。这些突出显示了代码的哪些部分更改模型认为重要的,从而验证了学习的黑框模型。
translated by 谷歌翻译
人们对出于各种目的的人交谈的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层伪造的模型的发展,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更谨慎,法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以将其“木偶”“木偶”“木偶”“木偶”“木偶”相同。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但从另一个来源转移行为信号来将一个人的动作与原始扬声器区分开。我们通过比较综合图像来进行研究:1)源自另一个人说不同话语的人,2)起源于同一人说的话不同,3)源自另一个人说相同的话语。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到​​与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造与正确捕获的视频。
translated by 谷歌翻译
近期量子系统嘈杂。串扰噪声已被确定为超导噪声中间尺度量子(NISQ)设备的主要噪声来源之一。串扰源于附近Qubits上的两Q量门门的并发执行,例如\ texttt {cx}。与单独运行相比,它可能会大大提高门的错误率。可以通过调度或硬件调整来减轻串扰。然而,先前的研究在汇编的后期很晚,通常是在完成硬件映射之后的。它可能会错过优化算法逻辑,路由和串扰的巨大机会。在本文中,我们通过在早期编译阶段同时考虑所有这些因素来推动信封。我们提出了一个称为CQC的串扰感知量子程序汇编框架,该框架可以增强串扰缓解,同时实现令人满意的电路深度。此外,我们确定了从中间表示向电路转换的机会,例如,以特定的特定串扰缓解措施,例如,\ texttt {cx}梯子构造在变异的量子eigensolvers(VQE)中。通过模拟和Real IBM-Q设备进行评估表明,我们的框架可以显着将错误率降低6 $ \ times $,而与最先进的门调度相比,仅$ \ sim $ 60 \%\%的电路深度方法。特别是对于VQE,我们使用IBMQ Guadalupe证明了49 \%的回路深度减少,而对H4分子的先前ART进行了9.6 \%的保真度改善。我们的CQC框架将在GitHub上发布。
translated by 谷歌翻译